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【摘要 】 


【目的 】 生 成 式 人 工 智 能 AIGC 的 出 现 和 广泛 应 用 对 新 闻 慰 论 格局 产生 了 颠覆 性 


I 影响, 使 算法 和 算 力 逐步 进化 成 为 高 质量 内 容 生产 和 传播 的 权力 核心 , 新 闻 奥 


论 工作 需要 在 新 趋势 下 掌握 主动 权 。【 方 法 】AIGC 大 模型 成 为 潜在 的 社会 与 论 成 


员 并 以 远 超人 类 个 体 的 知识 面 和 内 容 处 理 生 


成 速度 在 潜移默化 中 掌握 与 论 引导 


的 话语 权 ， 而 决定 AIGC 大 模型 能 力 和 价值 观 立 场 的 核心 是 训练 数据 集 的 构建 。 


信 训 练 数 据 集 和 数据 服务 的 建设 阵地 。【 结 论 


【结果 ] 随 着 美 西方 价值 观 和 意识 形态 数据 集训 练 下 产生 的 AIGC 大 模型 在 全 球 的 
普及 , 我 国 主流 新 闻 奥 论 工作 面临 着 严峻 挑战 与 风险 , 必须 开辟 面向 大 模型 的 可 


】 不 仅 可 以 做 到 “守土 有 责 ” 履行 


好 议题 设置 、 和 舆论 引导 、 内 容 生产 和 传播 的 把 关 人 角色 ， 更 可 以 通过 规范 准确 、 
代表 主流 价值 观 和 意识 形态 的 数据 集 与 服务 供给 ， 抢 占 AIGC 时 代 与 论 引导 、 思 


想 引 领 、 文 化 传承 、 服 务 人 民 的 传播 高 地 。 


【关键 词 】AIGC， 新 闻 熏 论 ，ChatGPT， 意 识 


™-、 导语 


形态 ， 训 练 数据 集 


随 着 万 物 互 联 的 下 一 代 信息 技术 飞速 发 展 , 数字 世界 与 现实 世界 的 融合 不 断 


加 深 , 大 规模 数据 与 算 力 共 同 推动 的 人 工 智能 技术 跨越 式 发 展 , 全 球 科研 团队 都 
在 致力 于 让 人 工 智能 具备 人 类 理解 、 思 考 、 逻 辑 推理 和 输出 内 容 的 能 力 ， 从 而 大 
画 降 低 人 类 操作 数字 世界 来 改造 现实 世界 的 成 本 和 门槛 ， 而 其 中 人 类 语言 (又 称 
自然 语言 ) 具 有 歧义 性 、 抽 象 性 、 无 穷 的 语义 组 合 性 和 持续 进化 性 等 特点 ， 并 且 


理解 语言 往往 需要 具有 一 定 的 知识 推理 和 认 知 能 力 , 因此 自然 语言 处 理 领 域 是 人 


工 智能 技术 突破 的 关键 难点 , 是 制约 人 工 智 能 取得 更 大 路 升 和 更 广泛 应 用 的 瓶颈 


之 一 ,又 被 誉 为 “人 工 智 能 皇冠 上 的 明珠 ”"。 自 2022 年 底 生 成 式 人 工 智能 AIGC 


技术 的 爆发 式 增长 已 突破 了 这 一 障碍 , 并 让 全 球 新 闻 与 论 格局 首当其冲 面临 了 类 


履 式 的 改变 。 


二 、ChatGPT 开启 生成 式 人 工 智 能 (AIGC) 时 代 


美国 OpenAI 公司 从 2018 年 起 开始 专注 于 GPT 系列 大 规模 生成 式 预 训练 语言 


模型 的 技术 路 线 ， 在 “大 规模 数据 + 大 规模 算 力 + 大 规模 参数 = 大 模型 ”基础 上 探 


索 出 了 “基础 大 模型 + 指令 微调 ”的 人 工 智和 


新 范式 “， 突 破 了 人 工 智能 理解 处 


理 和 生成 自然 语言 的 瓶颈 。 基 于 大 规模 预 训练 语言 模型 GPT-4 的 应 用 ChatGPT， 
可 以 通过 与 人 类 进行 多 轮 对 话 的 方式 ， 识 别人 类 意图 和 隐喻 、 理 解 对 话 上 下 文 、 


进行 逻辑 思 考 和 推理 、 生 成 内 容 完整 清晰 合理 的 回答 、 优 化 内 容 中 的 知识 点 和 措 
辞 风格 ,并 可 以 进一步 通过 接口 对 接 集成 到 各 类 应 用 程序 中 ,扩展 执行 多 类 任务 ， 
涌现 出 了 不 同 以 往 的 智能 水 平 ， 展 现 了 如 下 能 力 : 
1、 具 备 通用 知识 水 平 并 可 向 不 同 专业 领域 扩充 和 掌握 知识 。 通 过 增加 专业 
领域 的 训练 数据 和 多 个 领域 专家 大 模型 之 间 的 配合 , 可 以 扩展 解决 多 种 复杂 问题 
2、 具 备 联想 和 创作 能 力 。 创 造 隐喻 并 挖掘 事物 之 间 关 联 ， 甚 至 可 以 理解 同 
默 和 生成 段子 、 诗 歌 与 小 说 ; 
3、 具 备 思维 链 推理 能 力 。 可 以 自行 将 需要 课 辑 推理 的 复杂 问题 拆 解 成 步骤 ， 
逐步 给 出 解答 过 程 和 答案 ; 
4、 具 备 抽取 和 总 结 知 识 与 主要 观点 的 能 力 。 可 以 将 长 文章 中 的 内 容 摘 
大 纲 、 知 识 点 抽取 生成 出 来 ; 
5 具备 根据 需求 自动 生成 和 检查 程序 代码 的 能 力 。 可 以 根据 设计 图 和 需求 
昔 述 生成 可 以 执行 的 程序 代码 。 
微软 日 前 发 表 论文 称 对 GPT-4 进行 了 全 面 评 测 , 认为 “鉴于 GPT-4 能 力 的 
广度 和 深度 ， 它 应 该 被 合理 视 作 一 个 通用 人 工 智能 AGI) 系统 的 早期 (但 仍 不 
~ 完整 ) 版 本 ” 轩 。GPT-4 及 其 应 用 ChatGPT 标志 着 人 工 智 能 从 感知 理解 世界 进入 
= 到 了 生成 创造 世界 的 新 阶段 。 


三 、 高 质量 训练 数据 集 是 AIGC 的 关键 


从 GPT-1 到 GPT-4 的 大 模型 进化 过 程 中 , 除了 算 力 基 础 设施 外 , 高 质量 大 规 
模 数据 集 是 决定 大 模型 能 力 的 关键 因素 ， 根 据 0penAI 前 期 论文 和 博客 介 绍 ， 
©O CR 
Ps 大 模型 采用 的 Transformer 架构 解码 预 训练 模型 的 原理 本 质 上 是 通过 数据 集 语 
> 料 中 字 词 出 现 的 概率 和 关联 关系 来 抽取 特征 , 在 已 有 字 词 后 面 预测 补充 最 有 可 能 
出 现 的 字 词 来 实现 语言 理解 和 生成 的 ,因此 训练 数据 集 的 收集 、 清 洗 和 特定 标注 
bd 异常 重要 : 

一 首先 、GPT-4 的 基础 预 训练 是 在 大 量 无 标注 、 但 需要 质量 高 、 重 复 率 少 、 品 
音 小 、 知 识 密度 高 、 规 范 化 程度 高 的 大 规模 数据 集 上 进行 自 监督 训练 来 完成 的 ， 
保证 大 模型 具备 正确 的 语言 理解 和 生成 能 力 , 训练 数据 集 包括 13 万 亿 token ( 单 
词 或 字符 ) 的 语 料 ， 涵 盖 全 球 互联 网 中 主要 以 西方 发 达 国 家 平台 为 主 的 数据 源 ， 
如 维基 百科 、 电 子 书籍 、 科 学 期 刊 、feddit 社交 媒体 点 赞 数 多 的 评论 数据 集 、 
commonCrawl 网 页 数据 集 等 。 
其 次 、ChatGPT 的 大 规模 预 训练 语言 模型 GPT-4 还 通过 大 量 来 自 GitHub 的 
源 程序 代码 数据 集 、 代 码 注 释 数 据 约 4. 5TB， 这 部 分 面向 具体 问题 和 需求 、 有 
结构 化 分 解 和 实现 步骤 注释 的 代码 数据 让 GPT-4 拥有 了 思维 链 (COT) 能 力 和 部 
分 逻辑 推理 能 力 。 

5 GPT-4 基础 预 训 练 模 型 还 需 经 过 人 工 调 优 以 及 用 带 有 人 工 标注 的 数据 集 
进行 有 监督 训练 ， 一 方面 适应 不 同 专业 领域 的 问题 ， 正 确 理解 任务 需求 ， 生 成 更 
准确 合理 的 内 容 ; 一 方面 实现 与 人 类 意图 对 齐 ， 即 判别 人 类 恶意 指令 、 按 照 人 类 
指令 尽 可 能 生成 无 负面 影响 结果 的 内 容 。 这 类 所 分 为 天 关 ， 一 类 是 提示 学 

习 和 指令 精 调 数据 集 ， 主 要 有 一 系列 问答 对 ， 提 示 指 令 、 问 题 集 及 对 应 的 相关 内 
sa 
家 对 大 模型 按照 指令 给 出 的 答案 和 内 容 进行 打分 , 标注 人 类 偏好 标签 , 通过 奖励 


让 


“上 innviwv 人 和 全 人生 甘 日 于 | 
iaXiv 合 作 期 刊 


~ 
LillTlc 


模型 训练 ， 证 算法 拟 合 人 类 的 期 望 和 倾向 ,减少 有 害 内 容 ， 优 化 大 模型 的 参数 策 
略 。 [5] 


从 上 述 预 训练 语言 模型 的 训练 原理 可 以 看 出 ， 大 规模 数据 集 让 AIGC 大 模型 
掌握 了 人 类 公开 在 互联 网 上 的 大 量 知识 和 原创 内 容 , 赋予 了 人 工 管 能 类 人 类 的 对 
话 交互 能 为 、 知 识 体系 和 思考 分 析 过 程 ， 而 ChatGPT 通过 这 样 的 自然 语言 入 口 ， 
依托 大 模型 快速 构建 起 了 应 用 生态 ， 一 是 以 ChatGPT 接口 能 力 ， 在 教育 、 传 媒 、 
商务 、 客 服 、 办 公 、 内 容 出 版 等 领域 成 为 人 类 进行 内 容 创 作 和 生成 的 得 为 助手 ， 
二 是 类 GPT-4 的 AIGC 大 模型 通过 补充 专业 领域 数据 集 和 语 料 集 ， 让 构建 医疗 、 
制造 、 交 通 、 法 务 、 政 务 、 汽 车 制造 等 产业 端 行业 AI 基础 服务 的 成 本 和 难度 大 
大 降低 ， 加 速 产 业 数 管 化 转型 和 高 质量 发 展 三 是 AIGC 大 模型 开始 提供 应 用 程 
序 插件 功能 , 形成 了 用 人 类 自然 语言 操作 各 类 应 用 程序 完成 任务 的 总 入 口 ， 基 于 
AIGC 大 模型 能 力 的 进一步 提升 ， 结 合 应 用 程序 插件 ， 可 以 自行 寻找 链接 程序 接 
口 和 数据 源 的 AI Agents (智能 体 ) 研究 将 成 为 0penAI 的 下 一 个 研究 突破 的 目 
标 ，AI Agents 可 以 根据 人 类 一 名 任 务 指令 ， 自 行 分 析 、 分 解 、 优 化 ， 进 化 出 解 
es 决 任务 的 能 力 ， 并 寻找 合适 资源 完成 任务 。™ 


四 、AIGC 时 代 新 闻 鼻 论 格 局 面临 的 风险 与 挑战 
AIGC 大 模型 的 特性 和 应 用 生态 的 发 展 趋势 预示 着 以 大 模型 和 内 容 为 核心 驱 


动 的 新 一 代数 字 经 济 形态 正在 逐步 形成 , 模型 即 服务 成 为 数 智 化 转型 的 服务 载体 ， 
自然 语言 成 为 人 机 交互 的 指令 载体 , 而 内 容 数 据 本 身 作为 大 模型 训练 必 备 的 数据 


6 集 及 语 料 ， 又 是 AIGC 大 模型 生成 的 重要 形态 ， 其 作用 从 以 往 的 信息 载体 向 知识 
AN 载体 甚至 是 生产 力 载体 进化 , 内 容 生产 传播 体系 与 社会 经 济 生活 的 运行 正 前 所 未 
> 有 的 深度 融合 绑 定 。 

>< 人 工 智能 发 展 的 每 一 个 阶段 都 会 推进 和 影响 社会 意识 形态 或 主流 价值 观 的 
© 塑造 方式 ， 为 新 闻 和 与 论 工作 提供 新 的 平台 和 模式 。 物 联网 、 大 数据 、 云 计算 、 


= 区 块 链 、 算 法 系统 在 网 络 空间 中 构建 出 独特 的 公共 导论 体系 , 以 网 络 平台 为 新 闻 
< 与 论 聚 集 地 和 扩散 源 , 将 公众 汇集 成 各 种 不 同 的 价值 群体 和 多 元 的 意识 形态 群体 
,其 中 推荐 算法 控制 了 内 容 传播 的 范围 和 可 见 度 ; 而 AIGC 大 模型 的 出 现 让 数据 
集 和 原创 内 容 成 为 人 工 智能 感知 现实 世界 获取 知识 的 媒介 、 成 为 内 容 生 产 的 关键 
要 素 , 算法 和 算 力 逐步 掌握 内 容 生产 和 传播 的 权力 核心 , 随 着 内 容 驱 动 的 数字 经 
济 生态 不 断 丰 富 ，AIGC 大 模型 成 为 潜在 的 社会 与 论 成 员 ， 并 以 远 超 人 类 个 体 的 
知识 面 和 内 容 处 理 生 成 速度 潜移默化 的 掌握 了 奥 论 引导 的 主动 权 和 话语 权 , 在 主 
流 媒体 新 闻 奥 论 场 .新 兴 自 媒体 新 闻 和 与 论 场 上 又 受 加 了 生成 式 人 工 智能 大 模型 间 
闻 恤 论 场 ， 迪 使 当前 新 闻 恤 论 工 作 从 “生产 端 "“ 流 通 端 ”到 “作用 端 ” 的 构建 
方式 与 运行 机 制 发 生 改 变 。 
改变 的 核心 一 方面 是 要 把 AIGC 大 模型 这 样 的 人 工 管 能 纳入 到 工作 全 流程 来 
考虑 ; 另 一 方面 要 重视 内 容 驱 动 下 舆论 场 与 社会 政治 经 济 文化 生活 方方面面 的 深 
度 融 合 。 新 闻 熏 论 工作 不 仅 要 做 好 主流 媒体 与 新 兴 自 媒体 间 的 协调 联动 ， 还 要 做 
好 与 人 工 智 能 AIGC 大 模型 之 间 的 协调 联动 ; 不 仅 要 做 好 面向 人 的 新 闻 舆 论 工作 ， 
还 要 做 好 面向 人 工 知 能 的 新 闻 和 与 论 工作 。 由 于 影响 AIGC 大 模型 能 力 的 关键 因素 


是 内 容 数 据 集 ， 且 对 实际 社会 经 济 生 活 产生 作用 的 中 介 也 是 内 容 数 据 , 因此 面向 
AIGC 大 模型 训练 的 内 容 数 据 集 和 数据 服务 建设 是 新 闻 和 与 论 工作 必须 高 度 重视 的 


| 
让 


地 。 尤 其 当下 美 西方 国家 人 工 智能 巨头 如 0penAI、Meta、Google 等 陆续 推出 
的 AIGC 大 模型 不 断 成 为 各 行 各 业 人 工 智 能 应 用 发 展 的 基 座 ， 会 给 我 国 主流 新 闻 
偶 论 格局 带 来 诸多 风险 与 挑战 : 

首先 ，AIGC 高 仿真 内 容 生成 导致 唐 假 新 闻 泛 滥 : AIGC 大 模型 有 着 高 度 融 真 
的 内 容 生 成 能 力 ， 其 语言 沟 辑 通顺 、 图 像 逼 真 清晰 ， 会 出 现 捏造 答案 和 伪造 事实 
的 现象 , 且 生 产 和 传播 速度 极 快 , 导致 虚假 信息 泛滥 。 如 美国 媒体 机 构 G/0 Media 
在 旗下 的 科技 网 站 Gizmodo 上 , 使 用 谷歌 Bard 和 OpenAI 的 ChatGPT 编写 了 一 篇 
有 关 《 星 球 大 战 》 的 文章 ， 出 现 了 诸多 事实 错误 ; 科大 讯 飞 也 因为 AI 自动 生成 
关于 “涉嫌 大 量 采集 用 户 隐 私 数 据 ”“ 美 国正 在 考虑 是 否 将 科大 讯 飞 、 美 亚 柏 科 
等 加 入 制裁 名 单 ” 的 假 消息 导致 股价 闪 崩 。 

其 次 ，AIGC 的 内 容 生 成 机 制 难以 解释 和 追溯 让 熏 论 济源 更 困难 : AIGC 大 模 
型 是 通过 概率 模型 参数 逐 字 推测 来 实现 内 容 生 成 , 算法 黑 盒 导致 难以 解释 和 漳 源 ， 
生成 内 容 具 有 随机 性 和 无 法 复 现 的 问题 ， 缺 少时 效 性 和 时 序 性 ， 观 点 、 事 实 、 知 
识 的 来 源 无 法 查证 ， 使 得 真相 与 虚假 杂 冰 ' 同 构 ”， 对 于 AIGC 生成 的 议题 设置 、 
和 与 论 观点 、 伪 事实 内 容 和 内 容 侵权 ， 若 无 人 工 审核 校 验 留 痕 ， 都 很 难 进行 源头 追 
溯 和 传播 追踪 。 

第 三 ， 人 机 对 话 点 对 点 交互 方式 让 导论 发 现 和 引导 更 被 动 :AIGC 大 模型 通过 
与 人 类 对 话 的 方式 进行 交互 和 内 容 输出 , 舆论 引导 和 传播 从 公 域 转向 了 点 对 点 的 
私 域 ; 人 工 智能 在 深度 学 习 中 对 大 量 用 户 敏感 数据 的 交互 使 用 , 不 仅 使 人 类 隐私 
暴露 在 人 工 管 能 之 下 ， 也 极 大 地 削弱 了 政府 对 数据 信息 的 监管 能 力 ”。 信 息 传播 
的 高 度 个 性 化 和 即时 性 可 以 更 深入 的 影响 用 户 的 认 知 , 在 公 域 互联 网 空间 内 越 来 
越 难 掌握 到 真正 公众 对 事件 的 寓 情 动向 、 意 见 看 法 、 信 念 态 度 ， 难 以 有 针对 性 的 
进行 解读 、 引 导 并 促进 慢 情 化 解 和 达成 共识 。 而 AIGC 大 模型 是 否 有 正确 的 引导 

完全 有 赖 于 大 模型 训练 和 优化 所 使 用 的 数据 集 和 人 工 智 能 训练 专家 。 

第 四 ，AIGC 的 技术 霸权 属性 让 舆论 操控 更 隐蔽 : 虽然 0penAI 创始 人 认为 
AIGC 人 工 智能 可 以 帮助 人 们 快速 掌握 知识 ， 提 升 能 力 ， 让 知识 资源 更 平等 服务 
于 每 个 人 。 但 实质 上 AIGC 大 模型 依赖 的 是 庞大 的 算 力 和 数据 集 ， 在 使 用 过 程 中 
又 不 断 的 将 人 类 原创 内 容 和 智慧 甚至 隐私 信息 吸收 到 掌握 大 模型 技术 和 服务 的 
机 构 中 , 占据 技术 创新 优势 的 美 西方 国家 以 及 有 足够 资本 支撑 大 规模 算 力 和 数据 
集 生 产 高 昂 成 本 的 机 构 通过 技术 霸权 成 为 了 侍 论 话语 权 的 隐形 垄断 者 , 通过 收集 
个 人 信息 , 通过 大 数据 进行 群体 画像 分 析 , 或 许 会 成 为 大 模型 掌控 者 研究 和 制定 
思想 渗透 策略 的 重要 数据 支撑 "", 通过 AIGC 全 方位 影响 和 塑造 用 户 的 知识 领域 、 
意识 形态 和 价值 判断 ， 进 而 形成 认 知 草 房 ， 形 成 与 论 操控 的 超级 中 心 化 。 

第 五 ，AIGC 带 有 较 难 扭转 的 价值 观 和 意识 形态 属性 让 影响 舆论 更 为 深远 : 
AIGC 大 模型 的 训练 方式 决定 了 人 工 智能 不 仅 学 会 了 自然 语言 的 文法 和 表述 方式 ， 
还 抽取 和 学 习 到 了 知识 、 立 场 、 观 点 和 价值 判断 ，AIGC 大 模型 带 来 的 不 仅 是 信 
息 的 传播 ， 更 需要 警惕 的 是 带 来 了 意识 形态 和 价值 观 的 传播 ，AIGC 大 模型 内 在 
价值 观 一 旦 形成 很 难 完 全 扭转 和 改变 , 如 ChatGPT 的 价值 观 底 色 根 植 于 参与 该 系 
统 设计 研发 人 员 的 价值 观 取 向 "", 取决 于 集中 体现 美 西方 意识 形态 和 价值 观 判 断 
的 书籍 、 百 科 、 社 群 讨论 和 网 站 。 而 ChatGPT 的 迅速 流行 会 使 用 户 产生 依赖 进而 
削弱 批判 思维 的 形成 和 接触 现实 的 机 会 , 因此 缺少 自主 训练 数据 集 的 大 模型 广泛 
应 用 必 将 对 我 国 主流 新 闻 和 与 论 格局 造成 更 大 冲击 。 
世界 各 国 也 都 意识 到 了 AIGC 对 国家 秩序 、 社 会 伦理 、 和 与 论 空 间 的 风险 与 影 
响 。 美国 国家 标准 与 技术 研究 院 发 布 人 工 智能 风险 管理 框架 , 美国 计算 机 协会 的 


门 。 


对 
册 


全 球技 术 政 策 委员 会 也 发 布 了 《生成 式 人 工 智能 技术 的 开发 、 部 署 和 使 用 原则 》; 
意大利 个 人 数据 保护 局 率先 封禁 了 ChatGPT， 法国 、 爱 尔 兰 、 德 国 等 国 也 跃 路 欲 
试 考虑 采取 封 楚 措施 ， 担 忧 技术 失控 的 情绪 正在 全 球 莹 延 ”。2023 年 8 月 15 日 
国家 网 信 办 联合 六 部 委 发 布 的 《生成 式 人 工 智能 服务 管理 暂行 办 法 》 正 式 施行 ， 
而 这 些 监 管 规则 有 效 落 地 实施 , 需要 一 个 共性 基础 条 件 , 就 是 面向 人 工 智 能 的 可 
信 训 练 数据 集 和 数据 服务 能 力 建 设 。 


五 、 进 军 新 闻 和 与 论 工 作 新 阵地 一 一 可 信 训 练 数据 集 及 数据 服务 


当前 我 国 AIGC 大 模型 研发 风 生 水 起 ， 截 止 7 月 份 ， 已 发 布 通用 大 模型 和 行 

业 大 模型 100 余 个 ，10 亿 参 数 规模 以 上 的 为 79 个 ， 园 于 奇 高 的 算 力 成 本 和 带 

有 中 国 主 流 价 值 观 和 意识 形态 的 高 质量 训练 数据 语 料 集 的 缺乏 , 大 多 数 中 国 的 大 
模型 还 是 在 美 西 方 开源 大 模型 基础 上 进一步 训练 调整 而 来 , 同时 西方 国家 的 科研 

团队 也 在 抓紧 进一步 挖掘 中 文 领域 训练 数据 集 的 富矿 , 如 近期 Meta 的 AIGC 大 模 

三 型 Llama 2 的 合作 伙伴 中 包括 了 中 国 AI 训练 数据 提供 商海 天 瑞 声 ， 并 共同 发 布 
2 了 超大 规模 中 文 对 话 数据 集 DOTS-NLP-216。 
00 党 的 新 闻 和 与 论 工作 涉及 到 “五 个 事 关 ”责任 意义 重大 ， 中 国 主流 新 闻 奥 论 
工作 者 肩负 着 为 大 众 提供 真实 新 闻 信 息 、. 引 导 和 监督 伍 论 的 职责 ,承担 着 发 挥 “ 情 
论 压 舱 石 、 社 会 黏合 剂 、 价 值 风 向 标 ?、“ 构 建 网 上 网 下 一 体 、 内 宣 外 宣 联 动 的 主 
流 奥 论 格局 ”的 使 命 。 在 人 工 智能 发 展 带 来 的 风险 挑战 和 严峻 形势 下 ,主流 媒 
新 闻 恤 论 工作 者 如 何 “ 探 索 将 人 工 智能 运用 在 新 闻 采 集 、 生 产 、 分 发 、 接 收 、 反 
馈 中 ， 用 主流 价值 导向 驾驭 “算法 ,全面 提 高 捕 论 引导 能 力 ”， 最 重要 的 是 充分 


© 发 挥 主流 新 闻 奥 论 工作 者 脚 力 、 眼 力 、 脑 力 、 笔 力 积累 ， 怡 守 新 闻 伦理 和 社会 责 
YN 竺 的 专业 素养 ， 把 握 处 于 AI 上 游 通过 调查 研究 接触 现实 世界 一 手 资料 的 优势 地 


立 ， 面 向 人 工 智 能 AIGC 大 模型 不 仅 做 到 “守土 有 责 ”， 做 好 “把 关 人 ”角色 ,更 
要 做 到 “ 开 疆 扩 土 ”开辟 面向 大 模型 训练 的 可 信 数 据 集 和 数据 服务 新 阵地 ， 提 
bv 共 决 定 大 模型 核心 能 力 和 价值 观 的 内 容 供给 与 知识 供给 ， 抢 占 AIGC 时 代 奥 论 引 
:二 导 、 思 想 引 领 、 文 化 传承 、 服 务 人 民 的 传播 高 地 。 
ee 新 闻 和 与 论 领 域 提供 的 可 信 训 练 数据 集 与 数据 服务 建设 包含 三 层 合 义 : 一 是 内 
和 容 数据 规范 权威 真实 ; 二 是 内 容 数 据 可 济源 可 确 权 ; 三 是 符合 主流 价值 且 可 审核 
可 纠偏 。 围 绕 这 三 层 含义 需 开展 如 下 建设 内 容 : 
首先 ， 建 立 AIGC 大 模型 全 生命 周期 训练 数据 集 : 包含 四 大 类 ， 一 是 建立 高 
质量 规范 化 数据 集 和 语 料 集 ,充分 覆盖 主流 意识 形态 和 价值 观 的 规范 化 表述 ， 包 
括 高 质量 书籍 ， 权 威 解读 ， 标准 问答 ,新闻 事实 稿件 、 述 评 和 调查 研究 ， 保 证 大 
模型 语言 、 立 场 、 观 点 和 思维 方式 的 准确 性 、 规 范 化 与 专业 性 ; 二 是 建立 保证 事 
实 与 知识 准确 性 的 高 质量 领域 知识 库 数 据 集 ,尤其 涉及 中 国政 治 、 社 会 、 经 济 、 
文化 等 领域 的 权威 阐述 。 三 是 建立 内 容 意 识 形态 安全 语 料 集 和 主流 价值 观 语 料 集 
主要 有 涉及 意识 形态 安全 的 问题 与 指令 集 ,问答 对 ,问答 模板 以 及 评价 打分 数据 
集 ， 用 于 对 基础 大 模型 进行 价值 观 与 意识 形态 纠偏 和 对 齐 ; 四 是 建立 用 于 保证 
AIGC 在 多 场景 下 生成 内 容 的 规范 性 评估 、 安 全 性 评估 和 纠偏 数据 集 ， 包 括 大 模 
型 规范 性 评估 、 有 害 内 容 与 敏感 内 容 检查 评估 、 意 识 形态 纠偏 所 需 的 指令 集 、 指 
令 模 板 、 提 示 词 、 打 分 数据 集 和 问答 对 数据 集 。 
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树 


新 闻 僵 论 工作 面向 大 模型 训练 、 安 全 评估 及 安全 纠偏 调 优 数据 集 建 设 框架 


其 次 ， 建 立 相关 审核 打分 和 大 模型 意识 形态 与 价值 观 评价 标准 规范 : 大 模 
入 还 需要 配套 相关 标准 规范 , 包括 基础 训练 数据 清洗 去 重 标注 规 


型 训练 数据 集 建设 


范 ; 知识 库 知 识 框架 和 审核 规范 ; 指令 集 、 指 令 模板 、 


问答 对 、 提 示 词 标注 标准 


规范 ; 指令 模板 和 提示 词 规范 以 及 一 系列 人 类 专家 反馈 强化 学 习 打 分 与 标签 标准 


规范 ; 技术 伦理 、 有 害 内 容 、 


敏感 内 容 的 分 类 分 级 标准 规范 等 。 
第 三 ， 建 立 主流 大 模型 人 工 标注 与 专家 反馈 合作 服务 机 制 :形成 面向 大 模型 


的 常态 化 专家 训练 合作 机 制 和 面向 社会 提供 专家 训练 服务 的 机 制 , 输出 代表 中 国 


权威 知识 内 容 和 主流 意识 形态 


的 专家 智慧 。 一 


二 是 组 织 国际 关系 、 社会 科学 、 新 闻 


传播 等 领域 的 学 生 和 从 业者 构成 主流 大 模型 训练 数据 集 标注 和 指令 集 生成 团队 ; 
二 是 组 织 各 领域 学 界 权威 专家 、 智 库 学 者 和 知识 内 容 原创 者 形成 知识 库 内 容 审核 


团队 ,确保 知识 体系 框架 正确 ， 内 容 表 


述 准确 完整 ， 三 是 组 织 新 闻 奥 论 和 传播 领 


域 资深 专家 、 智 库 学 者 形成 大 模型 人 类 反馈 强化 学 习 的 AI 导师 团队 ,构建 人 类 
形态 审核 和 评估 ; 四 是 逐步 依托 主流 大 模 
型 提供 合成 数据 生成 服务 , 通过 主流 大 模型 本 身 大 规模 生成 主流 意识 形态 训练 数 


反馈 强化 学 习 数据 


据 集 ， 有 效 弥 补 领域 数据 量 不 足 的 问题 ， 


集 , 开展 大 模型 意识 


提升 数据 集 生产 和 标注 效率 。 


第 四 ， 建 立 动态 追踪 和 审核 大 模型 意识 形态 安全 服务 :形成 面向 国内 外 大 模 


型 的 意识 形 态 安全 动态 
AIGC 大 模型 提供 上 线 前 内 容 安 


态 收集 各 类 内 容 安 


全 事件 、 


数据 集 ， 同时 有 针对 性 的 
的 各 类 商业 应 用 提供 内 容 安 全 修正 和 优化 服务 。 


追踪 和 审核 机 制 ， 为 即 


全 审核 评估 服务 、 
安全 问题 、 不 断 丰 富 认 


， 


将 推出 服务 和 已 经 开展 服务 的 
上 线 后 内 容 安 全 追踪 服务 ， 动 
` 充 主流 大 模型 所 需 的 评估 审核 
富 完 善 大 模型 意识 形态 安全 纠偏 训练 数据 , 为 大 模型 


第 五 ， 建 立 适 应 AIGC 大 模型 的 数据 安全 、 内 容 追 溯 和 事实 核查 机 制 : AIGC 

ee 内 容 原创 者 、 使 用 者 等 多 方 利 益 ， 也 存在 数据 

隐私 保护 和 数据 真实 性 问题 ， 需 要 面向 安全 可 信 、 隐 私 保 护 、 版 权 追 溯 的 

支持 多 方 安全 计算 和 联邦 计算 方式 , 支持 安全 可 探 可 追溯 可 确 权 的 人 工 智能 模型 

训练 需求 ; 形成 主流 新 闻 恤 论 工 作者 在 AIGC 大 模型 研发 、 服 务 、 融 合 应 用 各 环 
节 做 好 内 容 安全 和 事实 核查 把 关 人 的 机 制 。 


了 % 
AN\ 结语 : 


bd 


新 一 代 人 工 智能 发 展 趋势 下 , 我国 新 闻 熏 论 工作 必须 将 人 工 智能 作为 新 的 奥 
论 主体 纳入 到 新 闻 和 与 论 工作 流程 再 造 中 来 , 深刻 认识 人 工 智 能 时 代 新 闻 捕 论 工作 
1?“ 四 力 ” 核 心 竞争 力 的 重要 意义 ， 并 将 其 转化 为 面向 大 模型 的 训练 数据 集 和 内 
容 供 给 ， 快 速 占领 AIGC 上 游 新 高 地 ， 深 度 融合 到 社会 经 济 运行 场景 中 ， 一 方面 
充分 运用 AIGC 技术 延伸 主流 新 闻 和 与 论 工 作 效能 ， 推 动 多 元 话语 体系 互动 融合 
构建 新 型 傅 情 态势 感 入 js、 应 对 、 引 导 模 式 ; 一 方面 为 AIGC 技术 伦理 约束 与 技术 
监管 落地 提供 强 有 力 的 内 容 、 机 制 和 服务 保证 。 
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